Utilizing the latest advances in Artificial Intelligence (AI), the computer vision community is now witnessing an unprecedented evolution in all kinds of perception tasks, particularly in object detection. Based on multiple spatially separated perception nodes, Cooperative Perception (CP) has emerged to significantly advance the perception of automated driving. However, current cooperative object detection methods mainly focus on ego-vehicle efficiency without considering the practical issues of system-wide costs. In this paper, we introduce VINet, a unified deep learning-based CP network for scalable, lightweight, and heterogeneous cooperative 3D object detection. VINet is the first CP method designed from the standpoint of large-scale system-level implementation and can be divided into three main phases: 1) Global Pre-Processing and Lightweight Feature Extraction which prepare the data into global style and extract features for cooperation in a lightweight manner; 2) Two-Stream Fusion which fuses the features from scalable and heterogeneous perception nodes; and 3) Central Feature Backbone and 3D Detection Head which further process the fused features and generate cooperative detection results. A cooperative perception platform is designed and developed for CP dataset acquisition and several baselines are compared during the experiments. The experimental analysis shows that VINet can achieve remarkable improvements for pedestrians and cars with 2x less system-wide computational costs and 12x less system-wide communicational costs.
translated by 谷歌翻译
感知环境是实现合作驾驶自动化(CDA)的最基本关键之一,该关键被认为是解决当代运输系统的安全性,流动性和可持续性问题的革命性解决方案。尽管目前在计算机视觉的物体感知领域正在发生前所未有的进化,但由于不可避免的物理遮挡和单辆车的接受程度有限,最先进的感知方法仍在与复杂的现实世界流量环境中挣扎系统。基于多个空间分离的感知节点,合作感知(CP)诞生是为了解锁驱动自动化的感知瓶颈。在本文中,我们全面审查和分析了CP的研究进度,据我们所知,这是第一次提出统一的CP框架。审查了基于不同类型的传感器的CP系统的体系结构和分类学,以显示对CP系统的工作流程和不同结构的高级描述。对节点结构,传感器模式和融合方案进行了审查和分析,并使用全面的文献进行了详细的解释。提出了分层CP框架,然后对现有数据集和模拟器进行审查,以勾勒出CP的整体景观。讨论重点介绍了当前的机会,开放挑战和预期的未来趋势。
translated by 谷歌翻译
We propose RANA, a relightable and articulated neural avatar for the photorealistic synthesis of humans under arbitrary viewpoints, body poses, and lighting. We only require a short video clip of the person to create the avatar and assume no knowledge about the lighting environment. We present a novel framework to model humans while disentangling their geometry, texture, and also lighting environment from monocular RGB videos. To simplify this otherwise ill-posed task we first estimate the coarse geometry and texture of the person via SMPL+D model fitting and then learn an articulated neural representation for photorealistic image generation. RANA first generates the normal and albedo maps of the person in any given target body pose and then uses spherical harmonics lighting to generate the shaded image in the target lighting environment. We also propose to pretrain RANA using synthetic images and demonstrate that it leads to better disentanglement between geometry and texture while also improving robustness to novel body poses. Finally, we also present a new photorealistic synthetic dataset, Relighting Humans, to quantitatively evaluate the performance of the proposed approach.
translated by 谷歌翻译
在从同质机器人群到异构人类自治团队的多机构团队的运营中,可能会发生意外的事件。虽然对多代理任务分配问题的操作效率是主要目标,但决策框架必须足够聪明,可以用有限的资源来管理意外的任务负载。否则,操作效率将大幅下降,而超载的代理人面临不可预见的风险。在这项工作中,我们为多机构团队提供了一个决策框架,以通过分散的强化学习来考虑负载管理,以学习负载管理,并避免了不必要的资源使用。我们说明了负载管理对团队绩效的影响,并在示例场景中探索了代理行为。此外,在处理潜在的超负荷情况时,开发了一种衡量协作中的代理重要性的衡量标准。
translated by 谷歌翻译
本文为我们最近在端到端优化的层次阶段性视频压缩方面提供了改进和新颖的补充,以进一步推进学到的视频压缩中的最新时间。作为改进,我们将运动估计和预测模块结合在一起,并压缩精制的残留运动向量,以提高速率延伸性能。作为新颖的添加,我们将提出的图像压缩的增益单元改编为柔性率视频压缩以两种方式:首先,增益单元使单个编码器模型能够以多速度距离操作点运行;其次,我们利用增益单元来控制内部编码与双向编码框架之间的位分配,通过微调相应的模型,用于真正的灵活率学习的视频编码。实验结果表明,我们获得的最先进的利率延伸性能超过了学到的视频编码中所有先前艺术的效果。
translated by 谷歌翻译
专家层(MOES)的混合物通过条件计算实现语言模型的高效缩放。本文提出了一个详细的实证研究,自回归鞋语言模型与广泛的设置中的密集模型相比:在域外语言建模,零和少量射击和全部微调。除了微调外,我们发现Moes基本上更加计算效率。在更适度的培训预算下,MOES可以使用$ \ SIM值4倍的计算,符合密集模型的性能。该差距在比例下变窄,但我们最大的MOE模型(1.1T参数)始终如一地优于计算等效的密集模型(6.7b参数)。总体而言,这种表现差距在任务和域中有很大差异,表明MOE和密集模型以不值得研究的方式概括不同的方式。我们使我们的代码和模型公开可用于研究使用。
translated by 谷歌翻译
联邦学习(FL)是利用属于患者,人,公司或行业的敏感数据的合适解决方案,这些数据在刚性隐私约束下工作的难题。 FL主要或部分地支持数据隐私和安全问题,并提供促进促进多个边缘设备或组织的模型问题的替代方案,以使用许多本地数据培训全局模型而不具有它们。由其分布式自然引起的FL的非IID数据具有显着的性能下降和稳定性偏斜。本文介绍了一种新颖的方法,通过增强图像动态平衡客户端的数据分布,以解决FL的非IID数据问题。介绍的方法非常稳定模型培训,并将模型的测试精度从83.22%提高到89.43%,对于高度IID FL设定中的胸部X射线图像的多胸疾病检测。 IID,非IID和非IID的结果,联合培训表明,该方法可能有助于鼓励组织或研究人员开发更好的系统,以获得与数据隐私的数据的价值不仅适用于医疗保健,而且领域。
translated by 谷歌翻译
车辆可见光通信(V-VLC)是一种有前途的智能运输系统(ITS)技术,用于车辆到车辆(V2V)和基础设施(V2I)通信,利用发光二极管(LED)。 V-VLC系统性能的主要劣化因子是噪声。与传统的射频(RF)为基础的系统不同,V-VLC系统包括许多噪声源:太阳辐射,车辆,街道,停车车库和隧道灯的背景照明。传统的V-VLC系统噪声建模基于射击和热噪声形式的添加剂白色高斯噪声假设。在本文中,为了研究V-VLC信道的时间相关和白噪声分量,我们提出了基于Allan方差(AVAR)的噪声分析,该分析提供了一个时间序列分析方法来识别数据的噪声。我们还提出了一种基于广义的维纳流程的V-VLC信道噪声合成方法,以产生不同的噪声分量。我们进一步提出了一种基于卷积的自动化器(CAE)的去噪方案,以减少V-VLC信号噪声,分别实现0.0442和0.0474的重建根均方误差(RMSE),用于室内和室外通道。
translated by 谷歌翻译
最近以来,在理解与overparameterized模型非凸损失基于梯度的方法收敛性和泛化显著的理论进展。尽管如此,优化和推广,尤其是小的随机初始化的关键作用的许多方面都没有完全理解。在本文中,我们迈出玄机通过证明小的随机初始化这个角色的步骤,然后通过梯度下降的行为类似于流行谱方法的几个迭代。我们还表明,从小型随机初始化,这可证明是用于overparameterized车型更加突出这种隐含的光谱偏差,也使梯度下降迭代在一个特定的轨迹走向,不仅是全局最优的,但也很好期广义的解决方案。具体而言,我们专注于通过天然非凸制剂重构从几个测量值的低秩矩阵的问题。在该设置中,我们表明,从小的随机初始化的梯度下降迭代的轨迹可以近似分解为三个阶段:(Ⅰ)的光谱或对准阶段,其中,我们表明,该迭代具有一个隐含的光谱偏置类似于频谱初始化允许我们表明,在该阶段中进行迭代,并且下面的低秩矩阵的列空间被充分对准的端部,(II)一鞍回避/细化阶段,我们表明,该梯度的轨迹从迭代移动离开某些简并鞍点,和(III)的本地细化阶段,其中,我们表明,避免了鞍座后的迭代快速收敛到底层低秩矩阵。底层我们的分析是,可能有超出低等级的重建计算问题影响overparameterized非凸优化方案的分析见解。
translated by 谷歌翻译
背景:虽然卷积神经网络(CNN)实现了检测基于磁共振成像(MRI)扫描的阿尔茨海默病(AD)痴呆的高诊断准确性,但它们尚未应用于临床常规。这是一个重要原因是缺乏模型可理解性。最近开发的用于导出CNN相关性图的可视化方法可能有助于填补这种差距。我们调查了具有更高准确性的模型还依赖于先前知识预定义的判别脑区域。方法:我们培训了CNN,用于检测痴呆症和Amnestic认知障碍(MCI)患者的N = 663 T1加权MRI扫描的AD,并通过交叉验证和三个独立样本验证模型的准确性= 1655例。我们评估了相关评分和海马体积的关联,以验证这种方法的临床效用。为了提高模型可理解性,我们实现了3D CNN相关性图的交互式可视化。结果:跨三个独立数据集,组分离表现出广告痴呆症与控制的高精度(AUC $ \ GEQUQ $ 0.92)和MCI与控制的中等精度(AUC $ \约0.75美元)。相关性图表明海马萎缩被认为是广告检测的最具信息性因素,其其他皮质和皮质区域中的萎缩额外贡献。海马内的相关评分与海马体积高度相关(Pearson的r $ \大约$ -0.86,p <0.001)。结论:相关性地图突出了我们假设先验的地区的萎缩。这加强了CNN模型的可理解性,这些模型基于扫描和诊断标签以纯粹的数据驱动方式培训。
translated by 谷歌翻译